屈折|词性_NLTK朴素贝叶斯,文本分类代码示例采样SMSSpamCollection数据集下载

作者：席钾攀 | 来源：互联网 | 2023-09-23 22:03

篇首语：本文由编程笔记#小编为大家整理，主要介绍了NLTK朴素贝叶斯,文本分类代码示例采样SMSSpamCollection数据集下载相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了NLTK朴素贝叶斯,文本分类代码示例采样 SMSSpamCollection数据集下载相关的知识，希望对你有一定的参考价值。

https://stackoverflow.com/

文本分类代码编译通过

import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv import numpy as np from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB import sklearn.metrics as metrics from sklearn import tree from sklearn.linear_model import SGDClassifier from sklearn.svm import LinearSVC from sklearn.ensemble import RandomForestClassifier # 文本清洗预处理 def preprocessing(text): # text &＃61; text.encode("gbk").decode("utf8") # tokons to word 句子标记解析单词标记解析 tokens &＃61; [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)] # print("单词标记解析&＃xff1a;", tokens) # 停用词删除 stop &＃61; stopwords.words(&＃39;english&＃39;) tokens &＃61; [token for token in tokens if token not in stop] # print("停用词删除", tokens) # 单词字数小于3删除并转换成小写 tokens &＃61; [word.lower() for word in tokens if len(word) >&＃61; 3] # print("字数小于3删除", tokens) # lemmatize # 把&＃xff08;文中的词&＃xff09;按屈折变化形式&＃xff08;或异体形式&＃xff09;进行归类 lemter &＃61; WordNetLemmatizer() tokens &＃61; [lemter.lemmatize(word) for word in tokens] # print("词性归类", tokens) preprosses_text &＃61; " ".join(tokens) # print("处理后的文本&＃xff1a;", preprosses_text) return preprosses_text with open(&＃39;SMSSpamCollection&＃39;, &＃39;r&＃39;, newline&＃61;&＃39;&＃39;, encoding&＃61;&＃39;mac_roman&＃39;) as csvfile: smsdata_data &＃61; [] sms_lablel &＃61; [] csv_reader &＃61; csv.reader(csvfile, delimiter&＃61;&＃39;\\t&＃39;) for line in csv_reader: sms_lablel.append(line[0]) smsdata_data.append(preprocessing(line[1])) csvfile.close() print(&＃39;smsdata_data&＃39;, smsdata_data) print(&＃39;sms_lablel&＃39;, sms_lablel) # 采样 # 训练集和样本集分开 7&＃xff1a;3 trainset_size &＃61; int(round(len(smsdata_data)*0.70)) # i chose this threshold for 70:30 train and test split. print(&＃39;The training set size for this classifier is &＃39; &＃43; str(trainset_size) &＃43; &＃39;\\n&＃39;) x_train &＃61; np.array([&＃39;&＃39;.join(el) for el in smsdata_data[0:trainset_size]]) y_train &＃61; np.array([el for el in sms_lablel[0:trainset_size]]) x_test &＃61; np.array([&＃39;&＃39;.join(el) for el in smsdata_data[trainset_size&＃43;1:len(smsdata_data)]]) # or el in sms_labels[trainset_size&＃43;1:len(sms_lablel)]]) y_test &＃61; np.array([el for el in sms_lablel[trainset_size&＃43;1:len(sms_lablel)]]) print("x_train&＃xff1a;&＃61;&＃61;&＃61;&＃61;", x_train) print("y_train:&＃61;&＃61;&＃61;&＃61;", y_train) # 术语文档矩阵 bow 词袋 with open(&＃39;SMSSpamCollection&＃39;, &＃39;r&＃39;, newline&＃61;&＃39;&＃39;, encoding&＃61;&＃39;mac_roman&＃39;) as csvfile: sms_exp &＃61; [] csv_reader &＃61; csv.reader(csvfile, delimiter&＃61;&＃39;\\t&＃39;) for line in csv_reader: sms_exp.append(preprocessing(line[1])) vectorizer &＃61; CountVectorizer(min_df&＃61;1) X_exp &＃61; vectorizer.fit_transform(sms_exp) print("||".join(vectorizer.get_feature_names())) print(&＃39;X_exp>>>>>&＃39;, X_exp.toarray()) csvfile.close() # TF/IDF vectorizer &＃61; TfidfVectorizer(min_df&＃61;2, ngram_range&＃61;(1, 2), stop_words&＃61;&＃39;english&＃39;, strip_accents&＃61;&＃39;unicode&＃39;, norm&＃61;&＃39;l2&＃39;) X_train &＃61; vectorizer.fit_transform(x_train) X_test &＃61; vectorizer.transform(x_test) print(&＃39;x_train:.....>>>>&＃39;, X_train) print(&＃39;x_test:>>>>>>>&＃39;, X_test) # 朴素贝叶斯朴素贝叶斯分类器 clf &＃61; MultinomialNB().fit(X_train, y_train) y_nb_predicted &＃61; clf.predict(X_test) print("y_nb_predicted>>", y_nb_predicted) print(&＃39;\\n confusion_matrix \\n &＃39;) cm &＃61; metrics.confusion_matrix(y_test, y_nb_predicted) print(cm) print(&＃39;\\n Here is the classification report:&＃39;) print(metrics.classification_report(y_test, y_nb_predicted)) # 得到前n个特征值 feature_names &＃61; vectorizer.get_feature_names() coefs &＃61; clf.coef_ intercept &＃61; clf.intercept_ coefs_with_fns &＃61; sorted(zip(clf.coef_[0], feature_names)) n &＃61; 15 top &＃61; zip(coefs_with_fns[:n], coefs_with_fns[:-(n &＃43; 1):-1]) for (coef_1, fn_1), (coef_2, fn_2) in top: print(&＃39;\\t%.4f\\t%-15s\\t\\t%.4f\\t%-15s&＃39; % (coef_1, fn_1, coef_2, fn_2)) # 决策树分类器 # clf &＃61; tree.DecisionTreeClassifier.fit(X_train.toarray(), y_train) # y_tree_predicted &＃61; clf.predict(X_test.toarray()) # print(y_tree_predicted) # print(&＃39; \\n Here is the classification report: y_tree_predicted&＃39;) # print(metrics.classification_report(y_test, y_tree_predicted)) # 随机梯度下降 clf &＃61; SGDClassifier(alpha&＃61;0.001, max_iter&＃61;50).fit(X_train, y_train) y_pred &＃61; clf.predict(X_test) print(&＃39;\\n Here is the classification report:&＃39;) print(metrics.classification_report(y_test, y_pred)) print(&＃39; \\n confusion_matrix \\n &＃39;) cm &＃61; (metrics.confusion_matrix(y_test, y_pred)) print(cm) # 支持向量机 svm_classifier &＃61; LinearSVC().fit(X_train, y_train) y_svm_predicted &＃61; svm_classifier.predict(X_test) print(&＃39;\\n Here is the classification report:&＃39;) print(metrics.classification_report(y_test, y_svm_predicted)) print(&＃39; \\n confusion_matrix \\n &＃39;) cm &＃61; (metrics.confusion_matrix(y_test, y_svm_predicted)) print(cm) # 随机森林 # RandomForestClassifier clf &＃61; RandomForestClassifier(n_estimators&＃61;10) clf.fit(X_train, y_train) y_RF_pred &＃61; clf.predict(X_test) print(&＃39;RF_confusion_matrix:&＃39;) print(metrics.confusion_matrix(y_test, y_RF_pred)) print(&＃39;RF_classification_report:&＃39;) print(metrics.classification_report(y_test, y_RF_pred))

UCI垃圾邮件数据集下载

http://archive.ics.uci.edu/ml/datasets/SMS&＃43;Spam&＃43;Collection

推荐阅读

function
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
config
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
list
fleaframedb使用之JPA封装介绍

flea,frame,db,使用,之 ... [详细]

蜡笔小新 2024-11-20 12:00:16
function
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
python
深入解析 Python 'with' 关键字与上下文管理器

在编程实践中，正确管理和释放资源是非常重要的。本文将探讨 Python 中的 'with' 关键字及其背后的上下文管理器机制，以及它们如何帮助我们更安全、高效地管理资源。 ... [详细]

蜡笔小新 2024-11-19 15:37:44
java
mysql数据库json类型数据,sql server json数据类型

mysql数据库json类型数据,sql server json数据类型 ... [详细]

蜡笔小新 2024-11-19 11:05:28
list
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
select
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
select
循环读取文本文件时遇到的常见错误及解决方法

在循环读取文本文件时，经常会遇到一些常见的错误，如日期格式不正确、文件路径错误等。本文详细分析了这些问题，并提供了具体的解决方法，包括如何正确处理日期字符串和确保文件路径的准确性。通过这些方法，可以有效提高数据读取的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-02 12:16:05
select
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38
select
在Android中实现黑客帝国风格的数字雨效果

本文将详细介绍如何在Android平台上利用自定义View实现类似《黑客帝国》中的数字雨效果。通过实例代码，我们将探讨如何设置文字颜色、大小，以及如何控制数字下落的速度和间隔。 ... [详细]

蜡笔小新 2024-11-22 16:49:53
range
MySQL InnoDB 存储引擎索引机制详解

本文深入探讨了MySQL InnoDB存储引擎中的索引技术，包括索引的基本概念、数据结构与算法、B+树的特性及其在数据库中的应用，以及索引优化策略。 ... [详细]

蜡笔小新 2024-11-21 12:41:51
java
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
config
Logging all MySQL queries into the Slow Log

MySQLoptionallylogsslowqueriesintotheSlowQueryLog–orjustSlowLog,asfriendscallit.However,Thereareseveralreasonstologallqueries.Thislistisnotexhaustive:Belowyoucanfindthevariablestochange,astheyshouldbewritteninth ... [详细]

蜡笔小新 2024-11-20 12:50:01
config
SSMS 启动故障：错误报告与解决求助

SSMS 启动故障：错误报告与解决求助 ... [详细]

蜡笔小新 2024-10-28 19:34:05

席钾攀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章